import pdfplumber
with pdfplumber.open('蒋浩东前端工程师_old.pdf') as pdf:
    first_page = pdf.pages[0] #获取，当前pdf有多少页，可以通过下标来读取某一页
    pages = pdf.pages #获取，当前pdf有多少页
    print(first_page.extract_text()) #获取某一页的文本
    print('--'*40)
    word = first_page.extract_words() # 获取页面中，每个词的信息（返回的是所有的单词及其相关信息）

    print(first_page.page_number,'---pageNum') #获取当前页码
    print(first_page.height,'---height') #获取当前页码
    print(first_page.width,'---width') #获取当前页码

    for item in word :
        print(item)
    print('----'*40)
    print(first_page.extract_tables()) # 获取页面中的表格 返回一个列表
    img = first_page.to_image() # 把页面生成一个图片并保存
    img.save('test2.jpg')
    # print(pdf.chars)
    print(pdf.metadata) #文件信息 {'Creator': 'Chromium', 'Producer': 'Skia/PDF m108', 'CreationDate': "D:20250520085800+00'00'", 'ModDate': "D:20250520085800+00'00'"}

    print('****'*40)
    for item in pages:
        text = item.extract_text()
        print(text)
        print(f'---now page is {item.page_number}--------')